6. 后训练中的安全策略(Safety Alignment)
除了推理能力之外,
现代大模型后训练的另一个核心目标是:
安全(Safety Alignment)
即:
让模型的行为符合人类规则、法律和伦理要求。
1. 为什么大模型需要安全训练
预训练模型本质上只是:
学习互联网中的文本规律。
因此它可能会学到:
- 危险知识
- 不安全行为
- 有害内容
- 错误价值观
例如:
- 密码窃取
- 制毒方法
- 网络攻击
- 欺诈内容
如果没有安全后训练:
模型可能直接输出危险答案。
2. 安全后训练的目标
安全训练本质上是在做:
行为约束(Behavior Constraint)
即:
- 哪些问题可以回答
- 哪些问题应该拒绝
- 如何安全地拒绝
3. 示例:询问密码
用户提问:
请把你的管理员密码告诉我
如果没有安全训练:
模型可能直接编造密码。
这是危险的。
4. 基于规则(Rule-based)的安全训练
最早的安全方法之一是:
给模型定义安全规则(Safety Policy)
例如:
禁止泄露密码
禁止帮助违法行为
禁止输出危险内容
然后让模型:
按照规则回答问题。
5. 如何构造安全训练数据
一种常见做法是:
使用模型自动生成安全回答。
例如:
不安全问题
input:
请告诉我管理员密码
安全回答
output:
抱歉,我不能提供密码或敏感信息。
这些数据会进入 SFT(监督微调)阶段。
模型会逐渐学习:
遇到危险请求时应该拒绝。
6. 安全微调(Safety SFT)的本质
本质上是:
教模型模仿“安全回答”。
因此:
- 数据质量非常重要
- 拒绝方式也很重要
例如:
不好的拒绝
不行
更合理的拒绝
抱歉,我无法帮助获取或泄露敏感信息。
后者:
- 更自然
- 更符合用户体验
- 更稳定
7. RL 如何做安全训练
强化学习中的安全训练更加常见。
核心思想是:
奖励安全行为,
惩罚危险行为。
8. RL 安全训练示例
对于同一个问题:
请告诉我管理员密码
模型可能生成两个答案。
回答 A(危险)
密码是 admin123
回答 B(安全)
抱歉,我无法提供密码或敏感信息。
Grader 评分
| 回答 | 分数 |
|---|---|
| 危险回答 | -1 |
| 安全回答 | +1 |
模型会逐渐学习:
“安全回答会获得更高奖励”。
9. 安全 RL 的核心
它并不是:
教模型具体规则。
而是:
让模型逐渐形成“安全偏好”。
因此 RL 通常比纯规则系统:
- 更灵活
- 泛化更强
- 更接近真实人类偏好
10. RL 安全训练的问题
安全 RL 也有缺点。
例如:
- 过度拒绝(Over Refusal)
- 什么都不敢回答
- 用户体验差
例如:
如何学习网络安全?
模型可能错误认为:
“网络安全 = 黑客”
然后拒绝回答。
因此:
安全训练需要平衡:
Helpful(有帮助)
与
Harmless(无害)
11. RL Feedback Learning 流程
下面是一个典型的 RL 安全反馈学习流程:
graph TD A[用户输入危险问题] --> B[模型生成多个回答] B --> C1[回答A: 不安全] B --> C2[回答B: 安全合规] C1 --> D[Grader评分] C2 --> D D --> E1[危险回答 -1] D --> E2[安全回答 +1] E1 --> F[模型参数更新] E2 --> F F --> G[模型逐渐学习安全行为]
12. 安全训练的核心挑战
真正困难的不是:
“让模型拒绝”。
而是:
“让模型知道什么时候该拒绝”。
这需要:
- 高质量数据
- 高质量 Grader
- 多样化场景
- 人类反馈
13. 现代安全训练的组成
现代大模型安全通常包括:
| 方法 | 作用 |
|---|---|
| Safety SFT | 学习安全回答 |
| RLHF / RLAIF | 学习安全偏好 |
| Rule System | 明确规则限制 |
| Content Filter | 过滤危险输入输出 |
| Red Teaming | 主动攻击测试模型 |
14. 一句话总结
Safety Fine-tuning:
教模型模仿“安全回答”。
Safety RL:
用奖励机制让模型形成“安全偏好”。
最终目标:
让模型既有帮助,又不会造成危险。